import pandas as pd
import pandas_profiling as pp
import numpy as np
import sklearn
from sklearn.datasets import load_boston
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib
import warnings
warnings.filterwarnings('ignore')
np.random.seed(23)
fires_df = pd.read_csv('forest_fires_dataset.csv')
fires_df
fires_df.info()
#Nie ma brakujących wartości
fires_df.describe()
#DC ma dużą wariancję
fires_df.hist(bins = 40, figsize=(18, 12))
plt.show()
#ISI, RH, temp, wind bliskie rozkładowi normalnemu
#rain, area w większości wartości bliskie 0
sns.pairplot(fires_df, y_vars="FFMC", x_vars=fires_df.columns.values[:5])
sns.pairplot(fires_df, y_vars="FFMC", x_vars=fires_df.columns.values[5:10])
sns.pairplot(fires_df, y_vars="FFMC", x_vars=fires_df.columns.values[10:])
#zależność FFMC i ISI
sns.pairplot(fires_df, y_vars="DMC", x_vars=fires_df.columns.values[:5])
sns.pairplot(fires_df, y_vars="DMC", x_vars=fires_df.columns.values[5:10])
sns.pairplot(fires_df, y_vars="DMC", x_vars=fires_df.columns.values[10:])
#silna zależność DMC i DC i lekka DMC i ISI
sns.pairplot(fires_df, y_vars="temp", x_vars=fires_df.columns.values[:5])
sns.pairplot(fires_df, y_vars="temp", x_vars=fires_df.columns.values[5:10])
sns.pairplot(fires_df, y_vars="temp", x_vars=fires_df.columns.values[10:])
#zależność temp i RH
sns.countplot(x="month", data=fires_df)
#sierpień i wrzesień to sezon pożarowy
sns.countplot(x="day", data=fires_df, order=["mon","tue","wed","thu","fri","sat","sun"])
#najwięcej pożarów w okolicach weekendu
pp.ProfileReport(fires_df)
#dane mają 4 zduplikowane rekordy
#największą wadą jest długi czas potrzebny na wygenerowanie raportu z dużej ilości danych
#dużo informacji, które mogą nas nie interesować